我们考虑对二进制数据的独立分量分析。虽然实践中的基本情况,但这种情况比ICA持续不断开发,以便连续数据。我们首先假设连续值潜在空间中的线性混合模型,然后是二进制观察模型。重要的是,我们认为这些来源是非静止的;这是必要的,因为任何非高斯基本上都是由二值化摧毁的。有趣的是,该模型通过采用多元高斯分布的累积分布函数来允许闭合形式的似然。在与持续值为案例的鲜明对比中,我们证明了少数观察变量的模型的非可识别性;当观察变量的数量较高时,我们的经验结果意味着可识别性。我们为二进制ICA展示了仅使用成对边缘的二进制ICA的实用方法,这些方法比完全多变量可能性更快地计算。
translated by 谷歌翻译
The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.
translated by 谷歌翻译
学习数据分布的参数模型是一个众所周知的统计问题,在深度学习中扩大了兴趣,因此人们对其进行了新的兴趣。将问题作为一项自我监督的任务,其中数据样本与噪声样本区分开来,是最新方法的核心,从噪声对抗性估计(NCE)开始。但是,这种对比学习需要良好的噪声分布,这很难指定。因此,特定于域特异性的启发式方法被广泛使用。尽管缺少一个全面的理论,但在实践中应广泛认为,应在分布和比例方面使最佳噪声等于数据。该设置尤其是生成对抗网络(GAN)的基础。在这里,我们从经验和理论上挑战了最佳噪声的这一假设。我们表明,从渐近方差方面,偏离这一假​​设实际上会导致更好的统计估计器。特别是,最佳噪声分布不同于数据,甚至与其他家庭不同。
translated by 谷歌翻译
许多开放的在线资料中,有关网络相关犯罪,事件和冲突的信息大量提供。但是,对分析师和专家来说,处理大量数据和数据流是一项具有挑战性的任务,并且需要对较新的方法和技术的需求。在本文中,我们介绍并实施了一个新颖的知识图和知识挖掘框架,以从有关网络域中事件的自由形式文本中提取相关信息。该框架包括基于机器学习的管道,用于生成具有非技术网络主页的组织,国家,行业,产品和攻击者的图形。提取的知识图用于估计给定图配置上的网络攻击的发生率。我们使用公开可用的实际网络材料报告收集来测试我们方法的功效。发现知识提取足够准确,基于图的威胁估计证明了与攻击实际记录的一定程度。在实际使用中,利用介绍框架的分析师可以从当前的网络景观中推断出各种实体的风险以及行业和国家之间风险启发式的风险。
translated by 谷歌翻译